初识人工智能 您所在的位置:网站首页 11300 1135g7 5800h 初识人工智能

初识人工智能

2023-03-11 17:48| 来源: 网络整理| 查看: 265

人工智能通俗理解(what):要让机器能像人一样甚至超过人去做一些事情。

怎么实现人工智能(how):使用人工神经网络技术。

神经网络与传统机器学习算法区别:

传统机器学习算法(线性回归,逻辑回归,决策树等)的内部过程已知(大型的复杂程序),神经网络内部过程未知(如人脑一样,不知道里面是怎么想的)。

神经网络构造图:

其中每一个⚪称为神经元,把神经元连接起来变形成了网络结构。该结构图形似人类的大脑结构。另一点,神经元的工作原理与大脑神经元的工作原理类似。

神经元工作原理:

当神经元接收到输入x的刺激时,会有相应的输出,其中w的大小可以影响各个x对神经元的刺激强度。

注:在人工智能领域中,每一个输入到神经网络的数据都被叫做一个特征——上图中x1,x2,x3就是特征,把特征和在一起(x1,x2,x3)可以叫做特征向量。

神经网络如何预测:

最简单的公式:y = W·X+b,W是权重向量如(w1,w2,w3),X是特征向量如(x1,x2,x3)。b是偏执或阈值,可影响预测结果。y是预测结果。

如何判断预测结果:

损失函数(单个样本)有很多种,以下是比较创建的一个损失函数:

损失函数运算后得出的结果越大,那么预测就与实际结果的偏差越大,即预测精度越不高。努力使损失函数的值越小就是努力让预测的结果越准确。

反向传播:根据链式法则,对w和b各求偏导。

常见的激活函数:

sigmoid,tanh,relu,leaky relu,softmax等。

sigmoid:值域在(0,1)常用在二分类问题的输出层。缺点:该层的输入数据较大时,神经网络的学习速度比较慢。

tanh:值域在(-1,1)它是sigmoid的升级版,在神经网络其他层中比sigmoid效果更好。缺点:该层的输入数据较大时,神经网络的学习速度比较慢。

relu:神经网络学习速度较快,一般以它为首选激活函数。

leaky relu:与relu类似,但是用较少。

提示:神经网络每层可以使用不同的激活函数,但一般根据项目实际情况,不会每层都是用不同的激活函数。

欠拟合与过拟合

欠拟合:在训练集的表现不好,在验证集上表现不好。

解决方向:

①增加神经网络的复杂度(增加层数,增加神经元);②增加训练次数;③更换优化算法;④更换神经网络架构

过拟合:在训练集的表现好,在验证集上表现不好。

解决方向:

①增加训练集(代价比较大);②正则化(l2正则,inverted dropout...);③更换神经网络架构

一般只有当模型过拟合了,才能使用正则化。

梯度消失与梯度爆炸:

梯度消失:偏导数极其小,导致神经网络更新非常慢。

梯度爆炸:偏导数极其大,导致参数数值大到超出计算机计算范围。

反向传播训练算法,不可避免梯度消失和爆炸,可以延缓(常见方法:初始化权重的数值更靠近0)

mini-bach ,size一般是2的几次方。epoch表示对整个训练集进行梯度下降的次数。iteration表示梯度下降的次数。

动量梯度下降优点:①比标准梯度下降移动的快,②更容易走出局部最小。

RMSprop:通过调整平衡各个方向上的力,使梯度下降更快达到最小值点。

ADAM算法:它是动量梯度下降和RMSprop算法的结合

学习率衰减:分段常数衰减,一般指数衰减,自然指数衰减,多项式衰减,余弦衰减...

调参一般顺序:学习率,梯度下降算法相关参数,每层神经元个数,batch-size,神经网络层数,学习率衰减参数,其他参数。

利用线性标尺与指数标尺对超参数进行采样。

BatchNorm(隐藏层规范化):可以使隐藏层Z分布更稳定。

选择softmax回归还是logistic回归,可以参考类别时间是否独立;如独立择选softmax回归,反之选logistic回归。

使用tensorflow 1.X时,先设计在执行。tensorflow 2.X 三种构建模型的方式:Sequential model、Function API、Subclassing

优秀的监督学习型神经网络四大目标:

①在训练集表现足够好,②在验证集有好的表现,③在测试集有好的表现,④在实际应用中表现好。

模型优化原则:根据满足N个指标,然后去优化一个重要指标。

kaggle数据集:http: //www.kaggle.com/datasets

提升AI系统一般步骤:

①根据实际项目评估人类误差;②计算欠拟合误差与过拟合误差,并比较大小;③根据相应情况对欠拟合与过拟合进行处理。

一般过滤器(卷积核、filter)的大小为1X1,3X3,5X5.......

卷积计算公式:,n为输入矩阵维度,p为padding,f滤波器维度,s为卷积步长,最后向下取整。

3维卷积与一维卷积类似,即对应的三维分别进行一维卷积,然后累加。

1X1卷积(网中网):卷积核的高和宽都为一。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有